昨天介紹 Hidden Markov Model(HMM)的時候,有稍微提到文本當中的「詞性」是我們看不到的東西,因此可以用 HMM 這種模型來去推測每個詞的詞性。
因此,今天就要來講講 Part-of-Speech Tagging(POS Tagging),詞性標註。
假設有這個句子:
The water is blue.
我們把它詞性標註過後,就會變成:
The/DT
water/NN
is/VBZ
blue/JJ
要注意的是很多字都是「歧義字」,也就是他們有不同的意思,甚至是不同詞性的意思,像是「book」這個字可以同時是名詞(書),也可以是動詞(預訂)
詞性標註這項任務也需要解決這項問題,可能的方式包含像是利用「頻率」的方式來決定一個詞的詞性
POS Tagging 是自然語言處理當中的一項基礎任務,也是 HMM 的常見應用,它可以讓機器理解詞在句子中的語法角色,並幫助後續更進階的分析任務。